Etape de filtre sur l’abondance par échantillon et OTU

Somme de tous les reads et on applique un filtre de 10-5 afin de s’assurer que ce ne sont pas des artefacts Dans notre cas permet de filtrer les taxa avec des valeurs supérieures à 180 reads par OTU



Description du BIOM

Niveau d’abondance par échantillon

[1]   5042 240312
[1]   5003 239715
échantillon mean median min max
Biom 846 21339.08 5 0 2709474
Filter_Biom 846 21207.16 1092 181 2709474

Le niveau d’abondance semble hétérogène. Il faudra donc prévoir un procédé de rarefaction



Graphique d’abondance des échantillons

  • données complètes

  • données filtrées

Dorénavant nous ne travaillerons que sur données filtrées Ne sert à rien d’aller au niveau Phylum ou infra car trop d’échantillons donc aucune couleur n’est visible Nous remarquons que le niveau d’abondance par échantillon est hétérogène de 25 000 en moyenne à 250 000.

Analyses effectuées mais retirées : J’avais fait des niveaux d’abondance par échantillon en fonction de différentes variables (sexe, satut tabagique…) mais ne sert à rien car ça équivaut à voir la profondeur et ce n’est pas biologiquement informatif donc enlevé.

Répartition des OTU par phylum

Var1 Freq
Actinobacteria 22
Bacteroidetes 223
Firmicutes 686
Fusobacteria 2
Proteobacteria 45
Synergistetes 9
Tenericutes 5
Verrucomicrobia 5


Visualisation de l’abondance en fonction des taxa

Les Firmicutes sont les bactéries majoritaires. Elles sont les plus abondantes suivies des Bacteroidetes


  • Bar plot abondance

  • Abondance des firmicutes niveau famille au sein des échantillons

Pas de différence flagrante. Les échantillons semblent assez hommogène dans la composition par famille. Sur les données au niveau du genre rien ne se dégage ainsi qu’en fonction du sexe, age, tabac… Les échantillons semblent peu différents entre eux. Nous risquons donc d’avoir une faible voir une absence de diversité béta

Au vu des différents graphs, il y a une grande diversité de bactéries et nous ne voyons pas de genre majoritaire quelque soit la variable. Pour l’ordre Clostrdiales est majoritaires quelque soit la variable prise (exemple ci dessous)

Composition en Firmicutes au niveau de l’ordre en fonction de l’âge

Je pense que les graphs suivants ne sont d’aucune utilité . J’ai fait les mêmes sur les femmes mais trop d’échantillons

Alpha-diversité

Diversité intrinsèque à chaque échantillon

Graphique Covariable et test statistique

Exploration de l’impact de chaque covariable sur la diversité-alpha

Shannon, Cet indice représente à la fois le nombre d’espèces d’un milieu mais aussi la répartition des effectifs individuels au sein des espèces présentes. Simpson mesure de régularité cad mesure la probabilité que deux individus pris au hasard appartiennent à la même espèce Chao1 tient davantage compte des espèces peu abondantes nécéssite de conserver singleton donc pas pris

Age diffère significativement en terme d’observation d’OTU

Mais également en terme de diversité en nombre d’espèce

Pas de différence signicative pour le nbre d’OTU mais différence significative pour le nbre d’espèces

Observation significative ainsi que Shannon. InvSimpson 0.08

Conclusion au vu des différents tests sur données filtrées non raréfiées:

Attention cependant dans notre cas d’alpha diversité sur la présence /abs (observed richness) il convient de travailler sur données raréfiées

  • Pour le modèle Observé Tabac Age et BMI significatif (, ,)
  • Pour l’indice de Shannon toutes les variables sont significatives voir hautement significatives (age SEX)
  • Pour l’indice de InvSimpson les variables sauf tabac sont significatives voir hautement significatives (age SEX)
  • Aucune interaction n’est significative

Conclusion au vu des différents tests sur données filtrées raréfiées:

  • Pour le modèle Observé Tabac Age et BMI significatif (, ,) SEX ns
  • Pour l’indice de Shannon toutes les variables sont significatives voir hautement significatives (age SEX)
  • Pour l’indice de InvSimpson les variables sauf tabac sont significatives voir hautement significatives (age SEX)
  • Aucune interaction n’est significative

Diversité Béta :

correspond à la différence de diversité des espèces entre plusieurs milieux Diversité entre échantillons : indice de dissimilarité (Bray et Curtis , de Jacard) Phylogénie (Unifrac) ### Nous n’avons pas d’arbre phylogénétique donc pas de distance unifrac et wunifrac

Ordination sans contrainte: capture de la diversité peu importe d’où elle provient.

Conclusion : Aucune tendance se dégage. Il n’y a pas de différence de diversité d’espèces entre les différent échantillons pour les catégories (age, sexe, tabac, bmi). Impossible de voir pour l’activité physique. La plage semble trop importante pour une coloration. Voir pour mettre des catégories

Représentation MDS (pour « Metric MultiDimensional Scaling » soit analyse multidimensionnelle métrique) La NMDS ne converge pas et NMDS déforme l’espace pour faire apparaitre des groupes éventuels. Du coup les distances apparentes ne sont pasfidèles aux distances réelles.

Quelque soit la variable utilisée, aucun structuration n’est identifiée. Les 2 premiers axes ne capturent que que 22% de la diversité avec la distance de Bray-Curtis.

/ /

Analyses complémentaires non essentielles au vu des résultats précédents

Ordination avec contraintes: capture de la diversité issu de certaines covariables.

Risque de ne rien voir car déjà rien ne ressort sans contrainte Changement de l’argument method en CAP (Constrained Analysis of Proximities) et indiqué quelle covariable peut expliquer cette diversité

/

Clustering Hierarchique

Aucune clusterisation des échantillons n’est visible Si présence d’arbre phylo possibilité de faire avec en utilisant dist=“unifrac”

/ /

PERMANOVA


Call:
vegan::adonis(formula = dist.bc ~ age + SEX + tabac + BMI + APhysGlobHParSem,      data = metadata, permutations = 999) 

Permutation: free
Number of permutations: 999

Terms added sequentially (first to last)

                  Df SumsOfSqs MeanSqs F.Model      R2 Pr(>F)    
age                4     1.732 0.43289  2.0403 0.00954  0.001 ***
SEX                1     1.273 1.27315  6.0007 0.00701  0.001 ***
tabac              2     0.672 0.33604  1.5839 0.00370  0.013 *  
BMI                1     0.318 0.31767  1.4973 0.00175  0.065 .  
APhysGlobHParSem   1     0.198 0.19769  0.9318 0.00109  0.552    
Residuals        836   177.370 0.21216         0.97691           
Total            845   181.562                 1.00000           
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Toutes les variables, à l’exception de l’activité physique, sont significatives. Cependant elles n’expliquent quasiment pas de variabilités < 1%

/ / ## Heatmap

Ne voyant pas de cluster, il n’est pas nécéssaire de faire une heatmap d’une variable en considérant les distances de Bray-Curtis.

Quelque soit la tranche d’âge, il y a beaucoup de diversité. Ce sont les mêmes OTU qui sont présents dans tous les échantillons quelque soit la catégorie d’âge.



Anlayses différentielles

Objectif : Voir si l’abondance de certaines espèces diffèrent entre les groupes

[1] 60

[1] 57



Conclusion

  • Beaucoup de bactéries dominée principalement poar Firmicutes et Bacteroidetes.
    • Pas de genre spécifique à une catégorie
    • Grande diversité de bactéries au sein de chaque échantillon. Différences significatives pour le nombre d’espèces de bactéries entre les personnes de différentes catégories Les différentes variables sont significativement différentes
    • Homogéniété en terme de représentativité des bactéries au sein des échantillons